赤池信息量準則(Akaike Information Criterion, AIC)是一個用來衡量模型的指標
他的基礎來自於信息熵(Imformation Entropy)與 MLL
直接先上公式再說明
之前我們有說過MLL與相對熵的關係
最 Log-Likelihood 中,我們希望有最大值
如此才能使模型最佳
而在公式中可以看到它對 Log-likelihood (LL) 取了一個「負號」
從這一點可以看出
AIC越小,表示模型越好
但是又正如之前所說的
特徵取的越多模型勢必會越好
所以AIC 把特徵子集的大小當作懲罰參數
在公式中的 k 就是指特徵子集的大小
如果覺得 LL 不好計算
若能假設模型的殘差服從常態分配
則也可以用下式計算 AIC
另外如果希望樣本大小也能反映出來
也就是說希望樣本少的受到的懲罰較大
可以將公式改為